关键字斑点(KWS)已成为许多智能设备的不可或缺的一部分,因为音频是与这些设备交互的最有效方法之一。 KWS解决方案的准确性和性能一直是研究人员的主要焦点,并且由于深入学习,在这个领域取得了实质性的进展。然而,随着KWS的使用传播到IOT设备中,除了性能之外,能量效率成为一个非常关键的要求。我们相信在硬件和神经网络(NN)模型架构中都会寻求功率优化的KWS解决方案在文献中的许多解决方案中是有利的,其中主要考虑了问题的架构方面。在这项工作中,我们通过考虑在MAX78000的部署端,超低功耗CNN加速器的端到端能效设计了优化的KWS CNN模型。通过组合的硬件和型号优化方法,我们实现了12个类的96.3 \%精度,同时仅消耗了每次推断的251 UJ。我们将结果与文献中的其他基于小型神经网络的KWS解决方案进行比较。此外,我们在功率优化的ARM Cortex-M4F中分享我们模型的能量消耗,以便为了清楚起见,描绘了所选硬件的有效性。
translated by 谷歌翻译
在边缘设备上部署深层神经网络〜(DNNS)为现实世界任务提供了有效的解决方案。边缘设备已用于在不同域中有效地收集大量数据。DNN是用于数据处理和分析的有效工具。但是,由于计算资源和内存有限,在边缘设备上设计DNN是具有挑战性的。为了应对这一挑战,我们演示了最大78000 DNN加速器上边缘设备的对象检测系统。它分别与摄像头和用于图像采集和检测展览的LCD显示器集成了启动DNN的推断。床是一种简洁,有效且详细的解决方案,包括模型培训,量化,合成和部署。实验结果表明,床可以通过300 kb微小的DNN模型产生准确的检测,该模型仅需91.9 ms的推理时间和1.845 MJ的能量。
translated by 谷歌翻译
Graph neural networks have shown to learn effective node representations, enabling node-, link-, and graph-level inference. Conventional graph networks assume static relations between nodes, while relations between entities in a video often evolve over time, with nodes entering and exiting dynamically. In such temporally-dynamic graphs, a core problem is inferring the future state of spatio-temporal edges, which can constitute multiple types of relations. To address this problem, we propose MTD-GNN, a graph network for predicting temporally-dynamic edges for multiple types of relations. We propose a factorized spatio-temporal graph attention layer to learn dynamic node representations and present a multi-task edge prediction loss that models multiple relations simultaneously. The proposed architecture operates on top of scene graphs that we obtain from videos through object detection and spatio-temporal linking. Experimental evaluations on ActionGenome and CLEVRER show that modeling multiple relations in our temporally-dynamic graph network can be mutually beneficial, outperforming existing static and spatio-temporal graph neural networks, as well as state-of-the-art predicate classification methods.
translated by 谷歌翻译
尽管在过去的几年中取得了重大进展,但歧义仍然是面部表情识别(FER)的关键挑战。它可能导致嘈杂和不一致的注释,这阻碍了现实世界中深度学习模型的性能。在本文中,我们提出了一种新的不确定性标签分布学习方法,以提高深层模型的鲁棒性,以防止不确定性和歧义。我们利用价值空间中的邻里信息来适应培训训练样本的情绪分布。我们还考虑提供的标签将其纳入标签分布时的不确定性。我们的方法可以轻松地集成到深层网络中,以获得更多的培训监督并提高识别准确性。在各种嘈杂和模棱两可的环境下,在几个数据集上进行了密集的实验表明,我们的方法取得了竞争成果,并且超出了最新的最新方法。我们的代码和模型可在https://github.com/minhnhatvt/label-distribution-learning-fer-tf上找到。
translated by 谷歌翻译
自2016年成立以来,Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟,同时达到至少4.0/5.0的平均评分。但是,由于对话代理商试图帮助用户完成日益复杂的任务,因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上,通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求,同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求,识别和集成任务和域知识,并开发新的方式,不分散用户的注意力,而不必分散他们的任务,以及其他挑战。本文概述了Taskbot挑战赛,描述了使用Cobot Toolkit提供给团队提供的基础架构支持,并总结了参与团队以克服研究挑战所采取的方法。最后,它分析了比赛第一年的竞争任务机器人的性能。
translated by 谷歌翻译
目的:用脑电图(脑电图)测量的稳态视觉诱发电势(SSVEP),在脑部计算机界面(BCI)拼写中产生不错的信息传输速率(ITR)。但是,文献中当前高性能的SSVEP BCI拼写器需要针对每个新用户进行系统适应的最初冗长而累人的用户特定培训,包括使用脑电图实验,算法培训和校准的数据收集(所有这些都是在实际使用之前系统)。这阻碍了BCI的广泛使用。为了确保实用性,我们提出了一种基于深神经网络(DNN)合​​奏的高度新颖的目标识别方法,该方法不需要任何特定于用户的培训。方法:我们从先前进行的脑电图实验的参与者中利用已经存在的文献数据集来训练全球目标标识符DNN,然后对每个参与者进行微调。我们将这种微调DNN的合奏转移到新的用户实例中,根据参与者与新用户的统计相似性确定k最具代表性的DNN,并通过集合预测的加权组合来预测目标角色。结果:在两个大规模基准和β数据集上,我们的方法可实现令人印象深刻的155.51位/分钟和114.64位/分钟ITR。代码可用于可重复性:https://github.com/osmanberke/ensemble-fnns结论:拟议的方法在[0.2-1.0]中的所有刺激持续时间上的所有最新替代方案都显着优于[0.2-1.0]秒。两个数据集。意义:我们的合奏-DNN方法有可能在日常生活中促进BCI拼写者的实际广泛部署,因为我们提供了最高的性能,同时无需任何特定于用户的培训即可立即使用。
translated by 谷歌翻译
自动对象检测器的本地化质量通常通过联合(IOU)分数进行评估。在这项工作中,我们表明人类对本地化质量有不同的看法。为了评估这一点,我们对70多名参与者进行了调查。结果表明,对于以完全相同的评分而言,人类可能不会认为这些错误是相等的,并且表达了偏好。我们的工作是第一个与人类一起评估IOU的工作,并清楚地表明,仅依靠IOU分数来评估本地化错误可能还不够。
translated by 谷歌翻译
跨核心联合学习利用了几百个可靠的数据筒仓,并具有高速访问链接,共同训练模型。尽管这种方法成为联合学习中的流行环境,但设计出强大的拓扑以减少训练时间仍然是一个开放的问题。在本文中,我们提出了一种用于跨核心联合学习的新的多编码拓扑。我们首先使用覆盖图构造多式图。然后,我们将此多数分析为具有孤立节点的不同简单图。隔离节点的存在使我们能够执行模型聚合而无需等待其他节点,从而减少训练时间。我们进一步提出了一种新的分布式学习算法,以与我们的多编码拓扑一起使用。公共数据集的密集实验表明,与最近的最新拓扑相比,我们提出的方法大大减少了训练时间,同时确保收敛并保持模型的准确性。
translated by 谷歌翻译
因果发现是一项主要任务,对于机器学习至关重要,因为因果结构可以使模型超越基于纯粹的相关推理并显着提高其性能。但是,从数据中找到因果结构在计算工作和准确性方面都构成了重大挑战,更不用说在没有干预的情况下不可能。在本文中,我们开发了一种元强化学习算法,该算法通过学习执行干预措施以构建明确的因果图来执行因果发现。除了对可能的下游应用程序有用外,估计的因果图还为数据生成过程提供了解释。在本文中,我们表明我们的算法估计了与SOTA方法相比,即使在以前从未见过的基本因果结构的环境中也是如此。此外,我们进行了一项消融研究,展示了学习干预措施如何有助于我们方法的整体表现。我们得出的结论是,干预措施确实有助于提高性能,从而有效地对可能看不见的环境的因果结构进行了准确的估计。
translated by 谷歌翻译
许多生物学和医疗任务需要描绘出图像体积的3D曲线结构,例如血管和神经突。这通常是使用通过最大程度地减少不捕获这些结构拓扑特性的体素损失函数来训练的神经网络完成的。结果,回收结构的连通性通常是错误的,这减少了它们的实用性。在本文中,我们建议通过最大程度地减少其2D预测的拓扑感知损失的总和来提高结果的3D连接性。这足以提高准确性并减少提供所需的注释培训数据所需的注释工作。
translated by 谷歌翻译